Current methods for few-shot action recognition mainly fall into the metric learning framework following ProtoNet. However, they either ignore the effect of representative prototypes or fail to enhance the prototypes with multimodal information adequately. In this work, we propose a novel Multimodal Prototype-Enhanced Network (MORN) to use the semantic information of label texts as multimodal information to enhance prototypes, including two modality flows. A CLIP visual encoder is introduced in the visual flow, and visual prototypes are computed by the Temporal-Relational CrossTransformer (TRX) module. A frozen CLIP text encoder is introduced in the text flow, and a semantic-enhanced module is used to enhance text features. After inflating, text prototypes are obtained. The final multimodal prototypes are then computed by a multimodal prototype-enhanced module. Besides, there exist no evaluation metrics to evaluate the quality of prototypes. To the best of our knowledge, we are the first to propose a prototype evaluation metric called Prototype Similarity Difference (PRIDE), which is used to evaluate the performance of prototypes in discriminating different categories. We conduct extensive experiments on four popular datasets. MORN achieves state-of-the-art results on HMDB51, UCF101, Kinetics and SSv2. MORN also performs well on PRIDE, and we explore the correlation between PRIDE and accuracy.
translated by 谷歌翻译
Three-phase PWM voltage-source rectifier (VSR) systems have been widely used in various energy conversion systems, where current sensors are the key component for state monitoring and system control. The current sensor faults may bring hidden danger or damage to the whole system; therefore, this paper proposed a random forest (RF) and current fault texture feature-based method for current sensor fault diagnosis in three-phase PWM VSR systems. First, the three-phase alternating currents (ACs) of the three-phase PWM VSR are collected to extract the current fault texture features, and no additional hardware sensors are needed to avoid causing additional unstable factors. Then, the current fault texture features are adopted to train the random forest current sensor fault detection and diagnosis (CSFDD) classifier, which is a data-driven CSFDD classifier. Finally, the effectiveness of the proposed method is verified by simulation experiments. The result shows that the current sensor faults can be detected and located successfully and that it can effectively provide fault locations for maintenance personnel to keep the stable operation of the whole system.
translated by 谷歌翻译
定量数据的因果发现已经进行了广泛的研究,但对于分类数据而言,知之甚少。我们根据新的分类模型提出了一个新的分类数据因果模型,该模型称为最佳标签置换(COLP)的分类。根据设计,COLP是一个简约的分类器,它产生了可识别的因果模型。一种简单的学习算法,通过比较因果关系的可能性功能,足以学习因果方向。通过合成和真实数据的实验,我们证明了与最新方法相比,基于COLP的因果模型的有利性能。我们还提供了一个随附的R软件包COLP,其中包含提议的因果发现算法和分类原因对的基准数据集。
translated by 谷歌翻译
机器人武器广泛用于自动行业。但是,随着在机器人臂中深入学习的广泛应用,存在新的挑战,例如分配掌握计算能力和对安全性的需求不断增长。在这项工作中,我们提出了一种基于深度学习和边缘云协作的机器人手臂抓握方法。这种方法意识到了机器人组的任意掌握计划,并考虑了掌握效率和信息安全性。此外,由GAN训练的编码器和解码器使图像在压缩时可以加密,从而确保隐私的安全性。该模型在OCID数据集上达到92%的精度,图像压缩比达到0.03%,结构差值高于0.91。
translated by 谷歌翻译
数据驱动的预测方法可以有效,准确地将蛋白质序列转化为生物活性结构,对于科学研究和治疗发展非常有价值。使用共同进化信息确定准确的折叠格局是现代蛋白质结构预测方法的成功基础。作为最新的状态,AlphaFold2显着提高了准确性,而无需进行明确的共同进化分析。然而,其性能仍然显示出对可用序列同源物的强烈依赖。我们研究了这种依赖性的原因,并提出了一种元生成模型Evogen,以弥补较差的MSA靶标的Alphafold2的表现不佳。 Evogen使我们能够通过降低搜索的MSA或生成虚拟MSA来操纵折叠景观,并帮助Alphafold2在低数据表方面准确地折叠,甚至通过单序预测来实现令人鼓舞的性能。能够用很少的MSA做出准确的预测,不仅可以更好地概括为孤儿序列的Alphafold2,而且使其在高通量应用程序中的使用民主化。此外,Evogen与AlphaFold2结合产生了一种概率结构生成方法,该方法可以探索蛋白质序列的替代构象,并且序列生成的任务意识可区分算法将使包括蛋白质设计在内的其他相关任务受益。
translated by 谷歌翻译
健康监测应用程序越来越依赖机器学习技术来学习日常环境中的最终用户生理和行为模式。考虑到可穿戴设备在监视人体参数中的重要作用,可以利用在设备学习中为行为和生理模式构建个性化模型,并同时为用户提供数据隐私。但是,大多数这些可穿戴设备的资源限制都阻止了对它们进行在线学习的能力。为了解决这个问题,需要从算法的角度重新考虑机器学习模型,以适合在可穿戴设备上运行。高维计算(HDC)为资源受限设备提供了非常适合的设备学习解决方案,并为隐私保护个性化提供了支持。我们的基于HDC的方法具有灵活性,高效率,弹性和性能,同时可以实现设备个性化和隐私保护。我们使用三个案例研究评估方法的功效,并表明我们的系统将培训的能源效率提高了高达$ 45.8 \ times $,与最先进的深神经网络(DNN)算法相比准确性。
translated by 谷歌翻译
摆脱拟合配对训练数据的基本限制,最近无监督的低光增强方法在调整图像的照明和对比度方面表现出色。但是,对于无监督的低光增强,由于缺乏对详细信号的监督而导致的剩余噪声抑制问题在很大程度上阻碍了这些方法在现实世界应用中的广泛部署。在本文中,我们提出了一种新型的自行车相互作用生成对抗网络(CIGAN),以实现无监督的低光图像增强,它不仅能够更好地在低/正常光图像之间更好地传输照明分布,还可以操纵两个域之间的详细信号,例如。 ,在环状增强/降解过程中抑制/合成逼真的噪声。特别是,提出的低光引导转换馈送馈送从增强gan(Egan)发电机的低光图像的特征到降解GAN(DGAN)的发生器。借助真正的弱光图像的信息,DGAN可以在低光图像中综合更逼真的不同照明和对比度。此外,DGAN中的特征随机扰动模块学会了增加特征随机性以产生各种特征分布,从而说服了合成的低光图像以包含逼真的噪声。广泛的实验既证明了所提出的方法的优越性,又证明了每个模块在CIGAN中的有效性。
translated by 谷歌翻译
当测试图像提出看不见的分布时,深层分割模型通常会面临故障风险。改善模型鲁棒性针对这些风险的鲁棒性对于深层模型的大规模临床应用至关重要。在这项研究中,受到人类学习周期的启发,我们提出了一个新颖的在线反思学习框架(REFSEG),以改善细分鲁棒性。基于启用概念的反射概念,我们的refseg首先驱动了深层模型以采取行动以获得语义分割。然后,refseg触发模型以反映自身。因为使深层模型在测试过程中意识到他们的细分失败是具有挑战性的,所以RefSeg合成了从语义面具中综合的逼真的代理图像,以帮助深层模型构建直观有效的反射。该代理翻译并强调了分割缺陷。通过最大程度地提高原始输入和代理之间的结构相似性,可以改善分割鲁棒性的反射循环。 REFSEG在测试阶段运行,并且是分割模型的一般性。通过公共心脏MR数据集和两个内部大型超声数据集对三个医疗图像细分任务进行了广泛的验证,这表明我们的refseg显着提高了模型的鲁棒性,并报告了与强大竞争对手有关的最先进的表现。
translated by 谷歌翻译
标准平面(SP)定位对于常规临床超声(US)诊断至关重要。与2D US相比,3D US可以一次扫描获得多个视图平面,并通过添加冠状平面提供完整的解剖结构。但是,由于方向的可变性和巨大的搜索空间,在3D US中手动导航SPS是费力的和有偏见的。在这项研究中,我们介绍了3D US中自动SP本地化的新型增强学习(RL)框架。我们的贡献是三倍。首先,我们将3D中的SP定位作为RL中的基于切线的问题,以重组动作空间并大大降低搜索空间。其次,我们设计了一种辅助任务学习策略,以增强模型识别跨越平面搜索中非SPS和SP的微妙差异的能力。最后,我们通过同时利用空间和解剖学信息来提出空间 - 动态奖励,以有效地指导学习轨迹。我们探讨了我们方法在子宫和胎儿脑数据集上定位四个SP的功效。实验表明,我们的方法达到了较高的定位精度以及稳健的性能。
translated by 谷歌翻译
超声(US)广泛用于实时成像,无辐射和便携性的优势。在临床实践中,分析和诊断通常依赖于美国序列,而不是单个图像来获得动态的解剖信息。对于新手来说,这是一项挑战,因为使用患者的足够视频进行练习是临床上不可行的。在本文中,我们提出了一个新颖的框架,以综合高保真美国视频。具体而言,合成视频是通过基于给定驾驶视频的动作来动画源内容图像来生成的。我们的亮点是三倍。首先,利用自我监督学习的优势,我们提出的系统以弱监督的方式进行了培训,以进行关键点检测。然后,这些关键点为处理美国视频中的复杂动态动作提供了重要信息。其次,我们使用双重解码器将内容和纹理学习解除,以有效地减少模型学习难度。最后,我们采用了对抗性训练策略,并采用了GAN损失,以进一步改善生成的视频的清晰度,从而缩小了真实和合成视频之间的差距。我们在具有高动态运动的大型内部骨盆数据集上验证我们的方法。广泛的评估指标和用户研究证明了我们提出的方法的有效性。
translated by 谷歌翻译